五：集成方法 (Ensemble Methods) - Fainle的博客

一 . 概述

集成方法是将多个模型组合起来获得更好的模型的一种方法。一般分为 bagging 和 boosting。

二 . 所属分类

集成方法属于监督学习。

三 . bagging

装袋算法, 对多个模型的结果投票，平均等方式获得结果。

代表算法:

1 . 随机森林 (Random Forests)

随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

四 . boosting。

提升方法

多个弱分类器组合成一个强分类器的算法，通常给不同的弱分类器不同的权重。数据会被重新加权。

代表算法:

1 . AdaBoost

自适应增强

AdaBoost方法的自适应在于：前一个分类器分错的样本会被用来训练下一个分类器。

其中权重计算公式

$weight = ln(\frac{accuracy}{1-accuracy})$

例子

from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

model = AdaBoostClassifier(base_estimator = DecisionTreeClassifier(max_depth=2), n_estimators = 4) # base_estimator 选择的弱模型，n_estimators 模型的数量

model.fit(x_train, y_train)
model.predict(x_test)